智能论文笔记

Neural Networks and the Chomsky Hierarchy

Grégoire Delétang , Anian Ruoss , Jordi Grau-Moya , Tim Genewein , Li Kevin Wenliang , Elliot Catt , Marcus Hutter , Shane Legg , Pedro A. Ortega

分类：机器学习 | 人工智能 | 自然语言处理

2022-07-05

可靠的概括是安全ML和AI的核心。但是，了解神经网络何时以及如何推广仍然是该领域最重要的未解决问题之一。在这项工作中，我们进行了一项广泛的实证研究（2200个模型，16个任务），以研究计算理论中的见解是否可以预测实践中神经网络概括的局限性。我们证明，根据Chomsky层次结构进行分组任务使我们能够预测某些架构是否能够推广到分布外输入。这包括负面结果，即使大量数据和训练时间也不会导致任何非平凡的概括，尽管模型具有足够的能力完美地适合培训数据。我们的结果表明，对于我们的任务子集，RNN和变形金刚无法概括非规范的任务，LSTMS可以解决常规和反语言任务，并且只有通过结构化内存（例如堆栈或存储器磁带）可以增强的网络可以成功地概括了无上下文和上下文敏感的任务。

translated by 谷歌翻译

Your Policy Regularizer is Secretly an Adversary

Rob Brekelmans , Tim Genewein , Jordi Grau-Moya , Grégoire Delétang , Markus Kunesch , Shane Legg , Pedro Ortega

分类：机器学习 | (统计)机器学习

2022-03-23

诸如最大熵正则化之类的政策正则化方法被广泛用于增强学习以提高学习政策的鲁棒性。在本文中，我们展示了这种鲁棒性是如何通过对冲的奖励功能扰动而产生的，奖励功能是从想象中的对手设定的限制设置中选择的。使用凸双重性，我们表征了KL和Alpha-Divergence正则化的一组强大的对抗奖励扰动集，其中包括香农和Tsallis熵正则定期为特殊情况。重要的是，可以在此强大集合中给出概括保证。我们提供了有关最坏的奖励扰动的详细讨论，并提供了直观的经验示例，以说明这种稳健性及其与概括的关系。最后，我们讨论我们的分析如何补充并扩展对对抗奖励鲁棒性和路径一致性最佳条件的先前结果。

translated by 谷歌翻译

Model-Free Risk-Sensitive Reinforcement Learning

Grégoire Delétang , Jordi Grau-Moya , Markus Kunesch , Tim Genewein , Rob Brekelmans , Shane Legg , Pedro A. Ortega

分类：机器学习

2021-11-04

我们扩展了时间差异（TD）学习，以获得风险敏感的无模型加强学习算法。该扩展可以被视为Rescorla-Wagner规则的修改，其中（六样）刺激被认为是过度或低估TD目标的事件。结果，获得从I.I.D的自由能量的随机近似规则。通过高斯分布产生的样本，具有未知的平均值和方差。由于已知高斯自由能量是对平均值和方差的确定性相当敏感，因此学习规则具有风险敏感决策的应用。

translated by 谷歌翻译

Disentangled Explanations of Neural Network Predictions by Finding Relevant Subspaces

Pattarawat Chormai , Jan Herrmann , Klaus-Robert Müller , Grégoire Montavon

分类：机器学习 | 人工智能 | 计算机视觉

2022-12-30

Explainable AI transforms opaque decision strategies of ML models into explanations that are interpretable by the user, for example, identifying the contribution of each input feature to the prediction at hand. Such explanations, however, entangle the potentially multiple factors that enter into the overall complex decision strategy. We propose to disentangle explanations by finding relevant subspaces in activation space that can be mapped to more abstract human-understandable concepts and enable a joint attribution on concepts and input features. To automatically extract the desired representation, we propose new subspace analysis formulations that extend the principle of PCA and subspace analysis to explanations. These novel analyses, which we call principal relevant component analysis (PRCA) and disentangled relevant subspace analysis (DRSA), optimize relevance of projected activations rather than the more traditional variance or kurtosis. This enables a much stronger focus on subspaces that are truly relevant for the prediction and the explanation, in particular, ignoring activations or concepts to which the prediction model is invariant. Our approach is general enough to work alongside common attribution techniques such as Shapley Value, Integrated Gradients, or LRP. Our proposed methods show to be practically useful and compare favorably to the state of the art as demonstrated on benchmarks and three use cases.

translated by 谷歌翻译

Emotion Recognition with Pre-Trained Transformers Using Multimodal Signals

Juan Vazquez-Rodriguez , Grégoire Lefebvre , Julien Cumin , James L Crowley

分类：人工智能 | 机器学习

2022-12-22

In this paper, we address the problem of multimodal emotion recognition from multiple physiological signals. We demonstrate that a Transformer-based approach is suitable for this task. In addition, we present how such models may be pretrained in a multimodal scenario to improve emotion recognition performances. We evaluate the benefits of using multimodal inputs and pre-training with our approach on a state-ofthe-art dataset.

translated by 谷歌翻译

PlaStIL: Plastic and Stable Memory-Free Class-Incremental Learning

Grégoire Petit , Adrian Popescu , Eden Belouadah , David Picard , Bertrand Delezoide

分类：计算机视觉 | 机器学习

2022-09-14

课堂学习学习需要可塑性和稳定性，以便在保留过去的知识的同时从新数据中学习。由于灾难性的遗忘，当没有内存缓冲区可用时，在这两个属性之间找到妥协尤其具有挑战性。主流方法需要存储两个深层模型，因为它们使用微调与以前的增量状态的知识蒸馏一起整合了新类。我们提出了一种具有相似数量参数但分布不同的方法，以便在可塑性和稳定性之间找到更好的平衡。遵循已经通过基于转移的增量方法部署的方法，我们在初始状态后冻结了功能提取器。最古老的增量状态的类对这种冷冻提取器进行训练，以确保稳定性。使用部分微调模型预测最近的类别以引入可塑性。我们提出的可塑性层可以纳入任何用于无内存增量学习的基于转移的方法，并将其应用于两种此类方法。评估是通过三个大型数据集进行的。结果表明，与现有方法相比，所有测试的配置中均获得了性能提高。

translated by 谷歌翻译

Graph Neural Networks for Low-Energy Event Classification & Reconstruction in IceCube

R. Abbasi , M. Ackermann , J. Adams , N. Aggarwal , J. A. Aguilar , M. Ahlers , M. Ahrens , J. M. Alameddine , A. A. Alves Jr. , N. M. Amin

分类：机器学习

2022-09-07

ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列，该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战，这是由于探测器的几何形状，不均匀的散射和冰中光的吸收，并且低于100 GEV的光，每个事件产生的信号光子数量相对较少。为了应对这一挑战，可以将ICECUBE事件表示为点云图形，并将图形神经网络（GNN）作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开，对不同的中微子事件类型进行分类，并重建沉积的能量，方向和相互作用顶点。基于仿真，我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术，包括已知系统不确定性的影响。对于中微子事件分类，与当前的IceCube方法相比，GNN以固定的假阳性速率（FPR）提高了信号效率的18％。另外，GNN在固定信号效率下将FPR的降低超过8（低于半百分比）。对于能源，方向和相互作用顶点的重建，与当前最大似然技术相比，分辨率平均提高了13％-20％。当在GPU上运行时，GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件，这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。

translated by 谷歌翻译

XAI for Transformers: Better Explanations through Conservative Propagation

Ameen Ali , Thomas Schnake , Oliver Eberle , Grégoire Montavon , Klaus-Robert Müller , Lior Wolf

分类：机器学习

2022-02-15

变压器已成为机器学习的重要主力，并具有许多应用。这需要开发可靠的方法来提高其透明度。已经提出了多种基于梯度信息的多种可解释性方法。我们表明，变压器中的梯度仅在本地反映该函数，因此无法可靠地确定输入特征对预测的贡献。我们将注意力头和分层确定为这种不可靠的解释的主要原因，并提出了通过这些层传播的一种更稳定的方式。我们的建议在理论上和经验上都显示出良好的LRP方法的适当扩展，以克服简单基于梯度的方法的缺乏，并实现先进的解释绩效在广泛的变压器模型和数据集上。

translated by 谷歌翻译

Adaptive R-Peak Detection on Wearable ECG Sensors for High-Intensity Exercise

Elisabetta De Giovanni , Tomas Teijeiro , Grégoire P. Millet , David Atienza

分类：机器学习

2021-12-08

目的：通过可穿戴传感器持续监测生物信号，在医疗和健康领域迅速扩展。在静止时，自动检测重要参数通常是准确的。然而，在诸如高强度运动的条件下，信号发生突然的生理变化，损害标准算法的鲁棒性。方法：我们的方法称为Bayeslope，是基于无监督的学习，贝叶斯滤波和非线性归一化，并根据ECG中的预期位置来增强和正确地检测R峰值。此外，随着贝叶克洛斯的计算沉重并且可以快速排出设备电池，我们提出了一种在线设计，可使其突然生理变化以及对现代嵌入式平台的异构资源的复杂性。该方法将Bayeslope与轻量级算法相结合，在具有不同能力的核心中执行，以减少能量消耗，同时保持精度。结果：贝森普洛普在激进的骑自行车运动中实现了99.3％的F1得分为99.3％。此外，在线自适应过程在五种不同的运动强度上实现了99％的F1得分，总能耗为1.55±0.54〜MJ。结论：我们提出了一种高度准确和稳健的方法，以及在现代超低功耗嵌入式平台中的完整节能实现，以提高攻击条件下的R峰值检测，例如在高强度运动期间。重要意义：实验表明，贝叶普洛斯在F1分数中优于8.4％的最先进的算法，而我们的在线自适应方法可以在现代异构可穿戴平台上达到高达38.7％的节能。

translated by 谷歌翻译

Deep learning for surrogate modelling of 2D mantle convection

Siddhant Agarwal , Nicola Tosi , Pan Kessel , Doris Breuer , Grégoire Montavon

分类：机器学习

2021-08-23

传统上，基于标度律维模型已被用于参数对流换热岩类地行星像地球，火星，水星和金星的内部，以解决二维或三维高保真前插的计算瓶颈。然而，这些在物理它们可以建模（例如深度取决于材料特性），并预测只平均量的量的限制，例如平均温度地幔。我们最近发现，前馈神经网络（FNN），使用了大量的二维模拟可以克服这个限制和可靠地预测整个1D横向平均温度分布的演变，及时为复杂的模型训练。我们现在扩展该方法以预测的完整2D温度字段，它包含在对流结构如热羽状和冷downwellings的形式的信息。使用的地幔热演化的10,525二维模拟数据集火星般的星球，我们表明，深度学习技术能够产生可靠的参数代理人（即代理人即预测仅基于参数状态变量，如温度）底层偏微分方程。我们首先使用卷积自动编码由142倍以压缩温度场，然后使用FNN和长短期存储器网络（LSTM）来预测所述压缩字段。平均起来，FNN预测是99.30％，并且LSTM预测是准确相对于看不见模拟99.22％。在LSTM和FNN预测显示，尽管较低的绝对平均相对精度，LSTMs捕捉血流动力学优于FNNS适当的正交分解（POD）。当求和，从FNN预测和从LSTM预测量至96.51％，相对97.66％到原始模拟的系数，分别与POD系数。

translated by 谷歌翻译